На страницу третьего семестра

Программы пакета BLAST

  1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST
  2. Для выполнения задания использовались три файла с геномами

    С помощью программы formatdb были созданы индексные файлы, при этом использовались следующий параметры:

     
    -i     файл, подаваемый на вход
    -p     тип последовательности в файле (T - аминокислотная, F - нуклеотидная)
    -n     первая часть файла с расширением (nhr, nin или nsq)
    
    Для генома синегнойной палочки (Pseudomonas aeruginosa) использовалась команда:

    formatdb -i pa_genome.fasta -p F -n pa


    Аналогично создала в своей рабочей директории 3 индексных файла для поиска по каждому из геномов..

  3. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный
  4. Есть аминокислотная последовательность белка Cyns_ecoli из Escherichia coli K-12.
    Задача — определить, не закодированы ли похожие белки в неаннотированном геноме другого организма,

    Выбрала подходящую для решения данной задачи программу TBLASTN и провела с ее помощью поиск в мини-базе данных, сформированной созданными ранее тремя индексными файлами..

    blastall -p tblastn -d pa -i cyns.fasta -o result1.txt
    Аналогичные команды для других геномов, с изменением имени файла, подаваемого на вход, а также имени файла с результатом. По результатам поиска заполнила таблицу.

    Поиск гомологов xxx_Ecoli Геном Vibrio cholerae Геном Pseudomonas aeruginosa Геном Pasteurella multocida
    Характеристика лучшей находки:      
         E-value находки 3.4 2e-59 0.14
      координаты выравнивания(-ий)
    в записи генома
    14191-14069(complement) 10075-9608(complement) 5207-5082(complement)
    AC соответствующей записи EMBL AE004273 AE004631 AE006207
      Координаты CDS в записи EMBL (если они есть) complement(12314..14254) невозможно определить* complement(4542..5525)
      AC UniProt в записи EMBL (если есть) Q9KQK8 невозможно определить* Q9CKB5
    Число находок с Е-value<0,01
    - 1 находка -
    E-value лучшей находки в трех геномах
    3е-59(Pseudomonas aeruginosa)
    Число находок с Е-value<0,01 в трех геномах
    1 находка
    *Невозможно определить что-либо в записи EMBL, так как АС записи, получаемой в предыдущем упражнении не имеет под собой данных. В банке EMBL она заменена на другую, точнее включена в запись полного генома с другим АС. Необходимые данные в ней определить невозможно. Таким образом единственная находка с подходящим значением e-value была получена в геноме Pseudomonas aeruginosa, причем как в случае отдельного поиска, так и в случае поиска по трем геномам. Заметим, что e-value при этом меняет свое значение на большее, это, видимо, связано с наибольшим количеством неблагоприятных находок при поиске по трем геномам. Таким образом можно говорить в целом об одной находке, удовлетворяющей нашим требованиям, хотя и не с полной уверенностью.

  5. Аналогичный поиск сразу в нескольких геномах
  6. Создала в своей директории индексные файлы BLAST для поиска по всем трем геномам сразу. С помощью выбранной ранее программы провела поиск по трем геномам. При создании индексных файлов одновременно трёх геномов были проведены следующие операции:

    Индексные файлы: 3g.nhr, 3g.nin и 3g.nsq.

  7. Поиск гомологов с помощью программы BLASTN
  8. Скопировала в свою рабочую директорию fasta-файл с гeном cyns_ecoli. Поискала гомологов этого гена в трёх геномах программой BLASTN. E-value лучшей находки =3е-07 в геноме Pseudomonas aeruginosa. Использовала команду: blastall -p blastn -d 3g -i gene1.fasta -o resultgene1.txt
    Выравнивание:
    Score = 54.0 bits (27), Expect = 3e-07
     Identities = 99/123 (80%)
     Strand = Plus / Minus
    
                                                                            
    Query: 349  ggcgatggcattattagcgcgattaacttcaaactcgacgttaagaaagtggcggacccg 408
                ||||| ||||| || |||||||| |||||||| || ||| | ||||| || | |||||||
    Sbjct: 9727 ggcgacggcatcatcagcgcgatcaacttcaagctggacatcaagaaggtcgaggacccg 9668
    
                                                                            
    Query: 409  gaaggtggcgaacgtgcggtcatcaccttagatggtaaatatctgccgaccaaaccgttc 468
                ||||| |||   || ||||| |||||| | || || || || ||||||||||| ||||||
    Sbjct: 9667 gaaggcggctcgcgggcggtgatcaccctcgacggcaagtacctgccgaccaagccgttc 9608
    
                   
    Query: 469  tga 471
                |||
    Sbjct: 9607 tga 9605 

    В самом деле, можно сказать, что данному выравниванию можно доверять, ибо идентичность равна 80 процентам, что много. К тому же само выравнивание имеет довольно большую длинну, и участки полных совпадений тоже не очень короткие. E-value хоть и не очень мало, все же приемлемо.

©Babskaya Evgeniya, 2005